4.2 Mamba 블록 구조 - MLP와 Attention의 통합 및 간소화

1. 서론: 이질성에서 동질성으로의 아키텍처 진화

현대 인공지능, 특히 자연어 처리(NLP)와 시퀀스 모델링 분야의 비약적인 발전은 트랜스포머(Transformer) 아키텍처의 등장과 그 궤를 같이한다. 트랜스포머는 시퀀스 내의 장거리 의존성(Long-range dependency)을 포착하는 데 탁월한 성능을 보였으나, 그 구조적 근간은 본질적으로 이질적(Heterogeneous)인 모듈의 결합에 의존하고 있다.1 트랜스포머 블록은 시퀀스 차원에서의 정보 혼합(Mixing)을 담당하는 다중 헤드 자기 주의(Multi-Head Self-Attention, MSA) 모듈과, 채널 차원에서의 정보 변환 및 비선형성을 담당하는 위치별 피드포워드 네트워크(Position-wise Feed-Forward Network, FFN) 또는 다층 퍼셉트론(MLP) 모듈로 명확히 양분되어 있다. 이러한 ’혼합(Mixing)’과 ’매핑(Mapping)’의 명시적 분리는 모델 설계의 직관성을 제공했으나, 동시에 계산 복잡도와 메모리 접근 패턴에서의 비효율성을 초래하는 원인이 되었다.3

특히 Attention 메커니즘이 내포한 $O(L^2)$ 의 2차 복잡도(Quadratic Complexity)는 긴 문맥(Context)을 처리하는 데 있어 치명적인 병목으로 작용하며, 이를 해결하기 위한 수많은 선형 Attention(Linear Attention) 및 희소 Attention(Sparse Attention) 연구가 진행되었음에도 불구하고, 성능과 효율성 사이의 트레이드오프를 완벽히 극복하지는 못했다.5 이러한 배경에서 등장한 Mamba 아키텍처는 기존의 패러다임을 전복하는 구조적 혁신을 제안한다. Mamba는 Attention과 MLP라는 두 개의 분리된 모듈을 사용하는 대신, 이를 하나의 통합된 ’Mamba 블록’으로 대체함으로써 아키텍처의 동질성(Homogeneity)을 확보하고, 구조적 간소화를 통해 연산 효율성을 극대화한다.4

Mamba 블록은 단순히 기존의 상태 공간 모델(State Space Model, SSM)을 트랜스포머에 삽입한 것이 아니다. 이는 트랜스포머의 MLP 블록 구조, 특히 게이트형 MLP(Gated MLP)의 설계를 차용하고, 이를 H3(Hungry Hungry Hippos) 아키텍처의 게이팅 메커니즘과 정교하게 융합한 결과물이다.2 본 절에서는 Mamba 블록이 어떻게 Attention의 시퀀스 혼합 능력과 MLP의 채널 변환 능력을 단일 블록 내에서 통합했는지, 그리고 이러한 통합이 가져오는 수학적, 공학적 이점은 무엇인지 심층적으로 분석한다. 우리는 Mamba 블록의 내부 텐서 역학(Tensor Dynamics)을 해부하고, 선택적 SSM(Selective SSM)이 어떻게 Attention의 기능을 대체하면서도 선형 복잡도를 유지하는지, 그리고 이것이 포스트 트랜스포머 시대의 새로운 표준이 될 수 있는 이론적 근거를 제시한다.

2. 기존 시퀀스 모델링 아키텍처의 구조적 딜레마

Mamba 블록의 통합 설계를 온전히 이해하기 위해서는 먼저 기존 아키텍처들이 직면했던 구조적 한계와 딜레마를 면밀히 살펴볼 필요가 있다.

2.1 트랜스포머의 이원화된 처리 구조와 병목

트랜스포머 모델의 기본 단위인 트랜스포머 블록은 크게 두 단계의 처리를 거친다. 첫 번째는 Attention 레이어로, 이는 “토큰들이 서로 대화하는 공간“이다. 쿼리(Query), 키(Key), 밸류(Value) 행렬 간의 상호작용을 통해 시퀀스 전체의 문맥 정보를 수집하고 가중치를 계산한다. 이 과정은 전역적인 수용 영역(Receptive Field)을 제공하지만, 시퀀스 길이가 길어질수록 연산량과 메모리 요구량이 기하급수적으로 증가한다.8 두 번째 단계인 MLP 레이어는 “각 토큰이 스스로를 숙고하는 공간“이다. Attention을 통해 수집된 정보를 바탕으로, 각 토큰의 벡터 표현을 고차원으로 확장했다가 다시 축소하는 과정을 통해 복잡한 특징을 추출한다.

이러한 이원화된 구조는 하드웨어 최적화 관점에서 상당한 오버헤드를 발생시킨다. Attention 연산은 대규모 KV 캐시(Key-Value Cache)를 필요로 하여 메모리 대역폭 집약적(Memory-bound)인 특성을 가지는 반면, MLP 연산은 대규모 행렬 곱셈을 포함하여 연산 집약적(Compute-bound)인 특성을 가진다.6 서로 다른 특성을 가진 두 모듈이 번갈아 배치되는 구조는 GPU와 같은 가속기에서 파이프라인을 최적화하거나 메모리 계층을 효율적으로 활용하는 데 제약을 가한다. 또한, 전체 파라미터의 약 2/3를 차지하는 MLP 블록이 시퀀스 혼합(Temporal Mixing)에는 전혀 관여하지 않는다는 점은 파라미터 효율성 측면에서 낭비적 요소로 지적되어 왔다.

2.2 초기 SSM의 한계와 H3 아키텍처의 복잡성

S4(Structured State Space Sequence) 모델과 같은 초기 SSM은 순환적(Recurrent) 연산과 컨볼루션(Convolution) 연산의 이중성을 활용하여 긴 시퀀스를 효율적으로 처리할 수 있는 가능성을 보여주었다.1 그러나 이들은 선형 시불변(Linear Time Invariant, LTI) 시스템에 기반을 두고 있어, 입력 데이터의 내용에 따라 동적으로 반응하는 능력, 즉 ‘내용 기반 추론(Content-aware Reasoning)’ 능력이 부족했다. 이는 언어 모델링과 같이 문맥에 따른 단어의 의미 변화가 심한 작업에서 트랜스포머에 비해 성능이 떨어지는 주된 원인이었다.3

이를 극복하기 위해 제안된 H3(Hungry Hungry Hippos) 아키텍처는 SSM을 두 개의 게이트 연결 사이에 배치하고, 표준적인 로컬 컨볼루션(Local Convolution)을 추가하여 “Shift-SSM” 구조를 형성했다. H3는 이론적으로 선형 Attention과 유사한 메커니즘을 구현하며 SSM의 성능을 트랜스포머 수준으로 끌어올리는 데 기여했다.5 H3의 구조는 다음과 같이 표현될 수 있다:
$y = \text{SSM}(x \cdot \sigma(W_1 x)) \cdot \sigma(W_2 x)$
그러나 H3는 구조적으로 매우 복잡했다. 입력 투영, 시프트 연산(Shift operation), SSM 연산, 그리고 여러 단계의 게이팅과 곱셈 연산이 얽혀 있어, 실제 구현 시 하드웨어 효율성을 저해하는 요소가 많았다. 특히, Shift-SSM과 Main-SSM이라는 두 종류의 SSM을 혼용하고, 이를 다시 게이팅 메커니즘으로 감싸는 구조는 모델의 깊이를 깊게 쌓거나 대규모로 확장하는 데 있어 최적화 난이도를 높이는 요인이었다.13 Mamba는 이러한 복잡한 H3 아키텍처를 기반으로 하되, 이를 현대적인 LLM에서 널리 사용되는 Gated MLP 구조와 융합함으로써 “간소화(Simplification)“를 달성하고, 동시에 성능을 극대화하는 방향으로 진화했다.

3. Mamba 블록의 아키텍처 해부: Gated MLP와 SSM의 통합

Mamba 아키텍처의 핵심은 트랜스포머의 Attention 블록과 MLP 블록을 각각 별도로 두는 대신, 이들을 통합하여 하나의 균일한 블록(Homogeneous Block)을 형성한다는 데 있다. 이를 위해 Mamba는 트랜스포머의 MLP 블록, 특히 SwiGLU(Swish Gated Linear Unit) 활성화 함수를 사용하는 Gated MLP의 구조적 틀을 차용한다.4 Mamba 블록은 이 Gated MLP 구조 내부에 핵심 연산 요소로 선택적 SSM(Selective SSM)을 배치함으로써, 정보의 비선형 변환과 시퀀스 혼합을 동시에 수행한다.

3.1 입력 투영(Input Projection) 및 확장(Expansion)

Mamba 블록의 데이터 흐름은 입력 텐서 $x$ (형상: $B \times L \times D$ )를 처리하는 것으로 시작된다. 여기서 $B$ 는 배치 크기, $L$ 은 시퀀스 길이, $D$ 는 모델의 은닉 차원(Hidden Dimension)이다. 첫 번째 단계는 입력을 더 높은 차원으로 투영하여 정보를 확장하는 것이다. 이는 트랜스포머의 FFN이 은닉 차원을 4배 등으로 확장하는 것과 유사한 개념이나, Mamba에서는 확장 계수(Expansion Factor) $E$ 를 사용하여 채널 차원을 $E \times D$ 로 확장한다. 일반적으로 Mamba 모델에서는 $E=2$ 를 사용한다.3

이 투영 과정에서 Mamba의 독특한 구조적 특징인 **이중 경로(Dual Branch)**가 형성된다. 입력 $x$ 는 선형 투영(Linear Projection)을 통해 두 개의 서로 다른 경로로 분기된다.

메인 브랜치 (Main Branch): 실제 SSM 연산과 시퀀스 혼합이 수행되는 경로이다.
게이트 브랜치 (Gate Branch): 정보의 흐름을 제어하고 필터링하는 경로이다.

이를 수식으로 표현하면 다음과 같다:
$x_{proj} = \text{Linear}_{in}(x) \quad (\text{Shape}: B \times L \times 2ED)$
투영된 결과 $x_{proj}$ 는 채널 차원을 기준으로 두 개의 텐서로 분할(chunk)된다. 하나는 메인 브랜치의 입력 $u$ 가 되고, 다른 하나는 게이트 브랜치의 입력 $z$ 가 된다. 두 텐서 모두 $B \times L \times ED$ 의 형상을 가진다.16

3.1.1 1D 컨볼루션 (Short Convolution): 지역적 맥락의 포착

메인 브랜치로 진입한 입력 $u$ 는 먼저 1D 컨볼루션 레이어를 통과한다. Mamba 논문과 구현체에서는 일반적으로 커널 크기 4의 1D 컨볼루션을 사용한다.3
$x'_{conv} = \text{Conv1d}(u) \quad (\text{Kernel Size}=4, \text{Groups}=ED)$
이 짧은 1D 컨볼루션(Short Convolution)은 아키텍처 내에서 매우 중요한, 하지만 종종 간과되는 역할을 수행한다. SSM이 본질적으로 순환적 특성을 통해 무한히 긴 시퀀스의 정보를 압축하는 데 강점이 있다면, 이 컨볼루션 레이어는 **“지역적 맥락(Local Context)”**을 포착하는 역할을 담당한다.5

언어 모델링과 같은 시퀀스 데이터에서는 인접한 토큰 간의 관계(예: n-gram 정보, 문법적 호응)가 매우 중요하다. SSM의 순환 상태(State)가 전역적인 정보를 요약한다면, 이 Conv1d 레이어는 SSM이 처리하기 전에 인접한 토큰들 사이의 상호작용을 미리 계산하여 지역적인 특징을 추출한다. 이는 H3 아키텍처에서 사용되었던 ’Shift-SSM’을 더 단순하고 효율적인 연산으로 대체한 것으로 볼 수 있으며, 모델의 학습 안정성과 성능을 높이는 데 기여한다.12 이 컨볼루션은 채널별(Depthwise)로 수행되므로 파라미터 수가 적고 연산 비용이 매우 낮다.

컨볼루션 이후에는 비선형 활성화 함수인 SiLU(Sigmoid Linear Unit)가 적용된다.
$x_{act} = \text{SiLU}(x'_{conv})$
이 단계까지는 트랜스포머의 FFN 구조와 유사하지만, 시퀀스 차원에서의 연산(Conv1d)이 포함되어 있다는 점에서 차이가 있다.

3.1.2 선택적 SSM (Selective SSM): 아키텍처의 심장

활성화된 입력 $x_{act}$ 는 이제 Mamba 아키텍처의 가장 핵심적인 부분인 선택적 SSM(Selective SSM, S6) 모듈로 진입한다. 여기서 기존의 LTI(Linear Time Invariant) SSM과 결정적인 차별점이 발생한다. 기존 SSM(S4 등)에서는 시스템 행렬 $A, B, C$ 가 시간과 입력에 관계없이 고정되어 있었으나, Mamba에서는 입력 $x_{act}$ 에 따라 $B, C, \Delta$ 파라미터가 매 시점마다 동적으로 생성된다.1

입력 의존적 파라미터 생성 (Input-Dependent Parameterization):

입력 텐서 $x_{act}$ (형상: $B \times L \times ED$ )로부터 선형 투영을 통해 $\Delta$ (시간 스텝/이산화 계수), $B$ (입력 제어 행렬), $C$ (출력 제어 행렬)를 생성한다.
$\Delta, B, C = \text{Linear}_{SSM}(x_{act})$
이때 $\Delta$ 는 $B \times L \times ED$ 의 형상을 가지며, $B$ 와 $C$ 는 $B \times L \times N$ 의 형상을 가진다 ( $N$ 은 SSM의 상태 차원). 이 과정은 모델이 시퀀스의 현재 내용(Content)에 따라 정보를 선별적으로 기억하거나 망각할 수 있는 능력을 부여한다. 예를 들어, $\Delta$ 값이 크면 현재 입력이 상태(State)에 미치는 영향이 커지고 과거 정보는 빠르게 잊혀지며(Reset), 반대로 $\Delta$ 값이 작으면 과거의 상태가 오래 유지된다(Memory).4 이는 Attention 메커니즘의 “내용 기반 주소 지정(Content-based addressing)“과 기능적으로 동등한 효과를 낸다.

이산화 (Discretization) 및 상태 업데이트:

생성된 연속 시간(Continuous-time) 파라미터들은 ZOH(Zero-Order Hold) 방식을 통해 이산화된 파라미터 $\bar{A}, \bar{B}$ 로 변환된다.
$\bar{A}_t = \exp(\Delta_t A)\\ \bar{B}_t = (\Delta_t A)^{-1}(\exp(\Delta_t A) - I) \cdot \Delta_t B_t$
이후 상태 공간 방정식에 따라 잠재 상태(Latent State) $h_t$ 가 업데이트되고 출력 $y_t$ 가 계산된다.
$h_t = \bar{A}_t h_{t-1} + \bar{B}_t x_{act, t}$ $y_t = C_t h_t$
이 연산은 순환적(Recurrent) 성격을 띠지만, Mamba는 이를 GPU 하드웨어에 최적화된 선택적 스캔(Selective Scan) 알고리즘을 통해 병렬적으로 처리한다.3 선택적 스캔은 Prefix Sum(누적 합) 알고리즘의 원리를 이용하여, 순차적인 의존성을 가진 연산을 $O(\log L)$ 의 병렬 깊이로 수행할 수 있게 한다. 또한, 커널 퓨전(Kernel Fusion)을 통해 중간 상태 $h_t$ 를 HBM(High Bandwidth Memory)에 저장하지 않고 고속 SRAM에서만 처리함으로써 메모리 대역폭 병목을 획기적으로 줄인다.3

4.2.3.4 게이팅 및 출력 투영 (Gating and Output Projection)

SSM 모듈을 통과하여 시퀀스 혼합이 이루어진 출력 $y$ 는, 앞서 분리해 둔 게이트 브랜치의 신호 $z$ 와 결합된다. 게이트 브랜치 입력 $z$ 역시 활성화 함수(SiLU)를 통과한다.

$z_{act} = \text{SiLU}(z)$ 최종적으로 SSM의 출력과 게이트 활성화 값이 요소별 곱(Element-wise Multiplication)을 수행한다.
$y_{gated} = y \odot z_{act}$
이 구조는 **SwiGLU (Swish Gated Linear Unit)**와 수학적으로, 구조적으로 매우 유사하다.14 트랜스포머의 최신 변형들(PaLM, LLaMA 등)에서 사용되는 SwiGLU는 $x \cdot \text{SiLU}(W_g x)$ 형태를 띠는데, Mamba는 여기서 $x$ 에 해당하는 부분에 선택적 SSM 변환을 적용한 $SSM(x) \cdot \text{SiLU}(z)$ 형태를 취한다. 즉, SSM이 MLP 내부의 선형 변환 경로 중 하나를 대체하여 시퀀스 혼합 기능을 수행하도록 통합된 것이다.4

마지막으로, 출력 투영 레이어를 통해 확장된 차원 $ED$ 를 원래의 모델 차원 $D$ 로 축소(복원)한다.
$Output = \text{Linear}_{out}(y_{gated}) \quad (\text{Shape}: B \times L \times D)$
여기에 잔차 연결(Residual Connection)이 더해져 다음 Mamba 블록으로 전달된다.

3.2 Attention과 MLP의 기능적 융합 및 텐서 역학 분석

Mamba 블록 구조는 단순히 부품을 조립한 것이 아니라, 트랜스포머의 두 가지 핵심 기능인 ’정보 라우팅’과 ’비선형 변환’을 하나로 융합한 철학적 결과물이다. 이를 텐서 역학(Tensor Dynamics)의 관점에서 분석하면 통합의 효율성이 더욱 명확해진다.4

3.2.1 Mamba 블록 내부 텐서 흐름도

다음 표는 Mamba 블록 내부의 데이터 처리 단계별 텐서 형상과 연산 내용을 요약한 것이다.

단계 (Stage)	연산 설명 (Operation)	입력 형상 (Input Shape)	출력 형상 (Output Shape)	비고 (Remarks)
Input	블록 입력	$(B, L, D)$	-	$B$ : 배치, $L$ : 길이, $D$ : 모델 차원
Projection	`Linear(D -> 2ED)`	$(B, L, D)$	$(B, L, 2ED)$	확장 계수 $E$ (보통 2)
Split	Main/Gate 분기	$(B, L, 2ED)$	$(B, L, ED)$ x 2	$u$ (SSM용), $z$ (Gate용)
Conv1d	지역 컨볼루션	$(B, L, ED)$	$(B, L, ED)$	Main 브랜치 적용, 커널 크기 4
Activation	`SiLU`	$(B, L, ED)$	$(B, L, ED)$	비선형성 주입
SSM Params	`Linear(ED -> N+N+D)`	$(B, L, ED)$	$(B, L, N)$	$\Delta, B, C$ 생성 ( $N$ : 상태 차원)
SSM Core	`Selective Scan`	$(B, L, ED)$	$(B, L, ED)$	잠재 상태 $h: (B, L, ED, N)$
Gating	`y * SiLU(z)`	$(B, L, ED)$	$(B, L, ED)$	Gate 브랜치와 결합 (SwiGLU 유사)
Output Proj	`Linear(ED -> D)`	$(B, L, ED)$	$(B, L, D)$	차원 복원 및 축소

위 표에서 확인할 수 있듯이, Mamba 블록은 내부적으로 차원을 확장( $E$ 배)하여 풍부한 표현력을 확보한 뒤, SSM을 통해 시퀀스 정보를 압축 및 혼합하고, 다시 원래 차원으로 복원하는 “확장-처리-복원“의 흐름을 따른다. 여기서 중요한 점은 SSM 연산이 확장된 차원( $ED$ )에서 각 채널별로 독립적으로(Channel-wise) 수행된다는 것이다. 이는 트랜스포머의 Multi-Head Attention이 헤드별로 정보를 나누어 처리하는 것과 유사한 효과를 내면서도, 헤드 간의 복잡한 연산이나 Attention Map 계산 비용을 제거했다.3

3.2.2 정보 라우팅(Routing)과 변환(Transformation)의 융합

트랜스포머에서 Attention은 시퀀스 전체를 스캔하여 정보를 어디서 가져올지 결정하는 ‘라우팅’ 역할을, MLP는 각 토큰의 정보를 가공하는 ‘변환’ 역할을 수행한다. Mamba 블록은 이 경계를 허문다.

선택적 SSM 파트: 입력 $x_t$ 에 따라 $\Delta, B, C$ 파라미터가 변하므로, 특정 시점의 정보가 은닉 상태 $h$ 에 얼마나 반영될지(Write), 그리고 $h$ 에서 얼마나 추출될지(Read)를 동적으로 결정한다. 이는 Attention의 $Softmax(QK^T)$ 가중치 계산과 기능적으로 동등하며, 결과적으로 시퀀스 내의 정보를 라우팅한다. 이 과정은 $O(N^2)$ 의 비용 없이 $O(N)$ 의 비용으로 수행된다.4
Gated MLP 파트: 투영(Projection) 레이어와 활성화 함수, 그리고 게이팅 메커니즘은 각 채널별로 정보를 변환하고 필터링한다.

따라서 Mamba 블록은 “시간 축 혼합(Temporal Mixing)“과 “채널 축 혼합(Channel Mixing)“을 하나의 블록 내에서 동시에, 그리고 유기적으로 수행한다. 이는 트랜스포머가 Attention 블록 다음에 MLP 블록을 배치해야만 했던 이중 구조를 단일 블록의 적층으로 단순화시킨다.2

3.2.3 암시적 어텐션 (Implicit Attention)

최근 연구에 따르면, Mamba의 선택적 SSM 메커니즘은 **“암시적 어텐션(Implicit Attention)”**으로 해석될 수 있다.20 Mamba는 명시적인 Attention 행렬( $A \in \mathbb{R}^{L \times L}$ )을 계산하거나 저장하지 않지만, 그 내부의 상태 업데이트 과정(수식 (10) 등)을 펼쳐보면(unroll), 각 토큰이 과거의 모든 토큰에 대해 가지는 유효 가중치를 역추적할 수 있다.

트랜스포머의 Attention 행렬이 쿼리와 키의 내적에 의해 결정되는 전역적이고 정적인 스냅샷이라면, Mamba의 암시적 Attention은 순환적인 게이팅의 누적 효과로 나타난다. 이는 Mamba가 Transformer보다 훨씬 더 많은 수의 “유효 Attention 행렬“을 내부적으로 생성하고 있음을 시사하며(채널마다 다른 역학을 가지므로), 이는 Mamba가 적은 파라미터로도 높은 성능을 내는 원인 중 하나로 분석된다. 시각화 연구 결과, Mamba의 암시적 Attention 맵은 Transformer의 Attention 맵과 유사하게 지역적 패턴과 장거리 의존성 패턴을 모두 포착하는 것으로 확인되었다.21

3.3 아키텍처 간소화의 공학적 파급 효과

Mamba 블록 구조의 통합 및 간소화는 모델 설계, 학습, 추론의 전 과정에 걸쳐 심대한 공학적 이점을 제공한다.

3.3.1 동질적 아키텍처(Homogeneous Architecture)와 확장성

트랜스포머 아키텍처는 Attention -> Add&Norm -> MLP -> Add&Norm의 이질적 블록 반복으로 구성된다. 반면 Mamba는 Mamba Block -> Add&Norm의 단순 반복 구조를 가진다. 이러한 동질성은 모델의 깊이 확장(Scaling depth)을 더 직관적으로 만들고, 대규모 분산 학습 시 파이프라인 병렬화(Pipeline Parallelism)나 텐서 병렬화(Tensor Parallelism)를 구현할 때 로드 밸런싱(Load Balancing)을 용이하게 한다.3 모든 레이어가 동일한 메모리 사용량과 연산 패턴을 가지므로, 특정 레이어(예: Attention)에서 메모리 스파이크가 발생하는 현상을 방지할 수 있어 하드웨어 리소스 관리 측면에서 유리하다.

3.3.2 하이퍼파라미터 튜닝의 단순화

Attention과 MLP가 분리된 구조에서는 각 모듈의 크기 비율(보통 1:4), Attention 헤드의 수, 헤드 차원 등 튜닝해야 할 하이퍼파라미터가 복잡하게 얽혀 있다. 반면 Mamba 블록은 통합된 구조 덕분에 주요 하이퍼파라미터가 블록의 차원( $D$ ), 상태 차원( $N$ , 보통 16), 확장 계수( $E$ , 보통 2) 등으로 단순화된다. 이는 새로운 데이터셋이나 도메인에 모델을 적용할 때 탐색해야 할 하이퍼파라미터 공간을 줄여주며, 연구 및 개발의 효율성을 높인다.24

3.3.3 추론 효율성과 선형 복잡도

가장 극적인 이점은 추론 시점에서 드러난다. 트랜스포머는 시퀀스 길이가 길어질수록 KV 캐시의 크기가 선형적으로 증가하고, Attention 연산량은 2차적으로 증가한다. 반면, Mamba는 학습 시에는 병렬 처리(Parallel Scan)를 통해 트랜스포머와 유사한 속도로 학습하고, 추론 시에는 순환 모드(Recurrent Mode)로 전환하여 고정된 크기의 상태(State)만을 유지한다. 이는 시퀀스 길이에 관계없이 토큰 생성 시 상수 시간( $O(1)$ ) 복잡도와 상수 메모리( $O(1)$ ) 사용량을 보장한다.1

실험 결과에 따르면, Mamba는 100만 토큰 이상의 긴 시퀀스에서도 메모리 부족(OOM) 없이 처리가 가능하며, 트랜스포머 대비 최대 5배 이상의 추론 처리량(Throughput)을 보인다. 이는 긴 문맥을 요구하는 문서 요약, DNA 서열 분석, 고해상도 오디오/비디오 생성 등의 작업에서 Mamba가 트랜스포머를 대체할 수 있는 강력한 근거가 된다.4

3.4 비교 분석: Transformer vs. H3 vs. Mamba

Mamba 블록의 우수성을 명확히 하기 위해, 주요 아키텍처들과의 구조적 비교를 수행한다.

특징	Transformer (Attention + MLP)	H3 (Shift-SSM + SSM)	Mamba (Selective SSM + Gated MLP)
핵심 연산	$O(L^2)$ Matrix Multiply	$O(L \log L)$ FFT / Scan	$O(L)$ Parallel Scan
블록 구조	이질적 (Attn & MLP 분리)	복잡함 (SSM 샌드위치 구조)	통합 및 단순화 (Single Block)
시퀀스 혼합	Multi-Head Attention	Shift-SSM + Main SSM	Conv1d + Selective SSM
채널 변환	Position-wise MLP	Gated Projection	Gated MLP (SwiGLU 구조)
내용 기반 선택	명시적 (Attention Weights)	제한적	내재적 (Input-dependent Parameters)
추론 속도	시퀀스 길이에 따라 저하	빠름	매우 빠름 (Constant Time)

H3 아키텍처와 비교했을 때, Mamba는 H3가 시퀀스 혼합을 위해 사용했던 복잡한 Shift-SSM을 단순한 Conv1d로 대체하고, 두 개의 게이트로 감싸져 있던 SSM 구조를 하나의 Gated MLP 프레임워크로 통합함으로써 간결성을 확보했다.5 실험 결과, Mamba는 H3와 유사하거나 더 적은 파라미터로도 언어 모델링 및 합성 작업(Copying Task 등)에서 월등히 높은 성능을 보였으며, 이는 “단순한 것이 더 강력하다(Simpler is stronger)“는 딥러닝의 격언을 다시 한번 입증한다.13

3.5 결론: 포스트 트랜스포머를 향한 도약

요약하자면, Mamba 블록 구조(4.2)는 트랜스포머 시대의 이원적 사고(Attention 대 MLP)를 극복하고, 시퀀스 모델링의 본질인 “상태 관리(State Management)“와 “정보 변환(Information Transformation)“을 단일한 계산 단위로 통합해낸 혁신적인 아키텍처이다.

구조적 통합: Gated MLP 구조 내에 선택적 SSM을 삽입함으로써, 비선형 변환과 시퀀스 혼합을 동시에, 효율적으로 수행한다.
선택적 메커니즘: 입력에 따라 동적으로 변하는 SSM 파라미터를 통해 Attention의 문맥 인식 능력을 선형 복잡도로 구현했다.
구현의 간소화: H3 등 이전 SSM 아키텍처의 불필요한 복잡성을 제거하고, 하드웨어 친화적인 설계를 통해 실제 연산 속도를 극대화했다.

이러한 통합 및 간소화는 Mamba가 단순히 “빠른 RNN“에 머무르지 않고, 대규모 언어 모델(LLM) 및 다양한 모달리티의 백본으로서 트랜스포머를 대체하거나 보완할 수 있는 강력한 후보가 된 근본적인 이유이다. Mamba 블록은 딥러닝 아키텍처가 복잡성을 줄이면서도 성능을 높이는 방향으로 진화할 수 있음을 보여주는 중요한 사례이며, 향후 등장할 하이브리드 모델이나 더 진보된 SSM 기반 모델들의 초석이 될 것이다. 다음 절에서는 이러한 Mamba 블록이 실제 하드웨어 상에서 어떻게 구현되고 최적화되는지, 그 구현의 핵심인 ’하드웨어 인지 알고리즘’에 대해 다룬다.

4. 참고 자료

Mamba: Linear-Time Sequence Modeling with Selective State Spaces, https://arxiv.org/abs/2312.00752
Mamba-MLP-Transformer Architecture - Emergent Mind, https://www.emergentmind.com/topics/mamba-mlp-transformer-architecture
Mamba: Make Sequence Models Fast Again | by Dong-Keon Kim, https://medium.com/@kdk199604/mamba-make-sequence-models-fast-again-540245a49155
Mamba: Linear-Time Sequence Modeling with Selective State Spaces, https://arxiv.org/pdf/2312.00752
Mamba: Linear-Time Sequence Modeling with Selective State Spaces, https://arxiv.org/html/2312.00752v2
Mamba: New Selective State Space Model vs Transformer - ALLPCB, https://www.allpcb.com/allelectrohub/mamba-new-selective-state-space-model-vs-transformer
Mamba (deep learning architecture) - Wikipedia, https://en.wikipedia.org/wiki/Mamba_(deep_learning_architecture)
Towards Mamba State Space Models for Images, Videos and Time …, https://towardsdatascience.com/towards-mamba-state-space-models-for-images-videos-and-time-series-1e0bfdb5933a/
[D] - Why MAMBA did not catch on? : r/MachineLearning - Reddit, https://www.reddit.com/r/MachineLearning/comments/1hpg91o/d_why_mamba_did_not_catch_on/
Mamba-360: Survey of State Space Models as Transformer … - arXiv, https://arxiv.org/html/2404.16112v1
Mamba: Linear-Time Sequence Modeling with Selective State Spaces, https://openreview.net/forum?id=tEYskw1VY2
Mamba architecture : A Leap Forward in Sequence Modeling, https://medium.com/@puneetthegde22/mamba-architecture-a-leap-forward-in-sequence-modeling-370dfcbfe44a
MAMBA: LINEAR-TIME SEQUENCE MODELING WITH SELECTIVE …, https://openreview.net/pdf?id=AL1fq05o7H
Transformer Design Guide (Part 2: Modern Architecture), https://rohitbandaru.github.io/blog/Transformer-Design-Guide-Pt2/
What Is A Mamba Model? | IBM, https://www.ibm.com/think/topics/mamba-model
What is a Mamba model - GeeksforGeeks, https://www.geeksforgeeks.org/artificial-intelligence/what-is-a-mamba-model/
Mamba Explained - The Gradient, https://thegradient.pub/mamba-explained/
A Deep Dive into MAMBA and State Space Models for Long …, https://ssm-ed2.pages.dev/
Here Comes Mamba: The Selective State Space Model, https://towardsdatascience.com/here-comes-mamba-the-selective-state-space-model-435e5d17a451/
The Hidden Attention of Mamba Models - arXiv, https://arxiv.org/html/2403.01590v1
Hidden Attention of Mamba Models | PDF - Scribd, https://www.scribd.com/document/895312249/Hidden-Attention-of-Mamba-Models
The Hidden Attention of Mamba Models - arXiv, https://arxiv.org/html/2403.01590v2
A Mamba Foundation Model for Time Series Forecasting - arXiv, https://arxiv.org/html/2411.02941v1
How Selective State Space Models Boost Mamba’s Performance, https://hackernoon.com/how-selective-state-space-models-boost-mambas-performance